我们为模仿学习提供了一个新的框架 - 将模仿视为政策和奖励之间的基于两人排名的游戏。在这个游戏中,奖励代理商学会了满足行为之间的成对性能排名,而政策代理人则学会最大程度地提高这种奖励。在模仿学习中,很难获得近乎最佳的专家数据,即使在无限数据的限制下,也不能像偏好一样对轨迹进行总订购。另一方面,仅从偏好中学习就具有挑战性,因为需要大量偏好来推断高维奖励功能,尽管偏好数据通常比专家演示更容易收集。经典的逆增强学习(IRL)的配方从专家演示中学习,但没有提供从离线偏好中纳入学习的机制,反之亦然。我们将提出的排名游戏框架实例化,并具有新颖的排名损失,从而使算法可以同时从专家演示和偏好中学习,从而获得两种方式的优势。我们的实验表明,所提出的方法可实现最新的样本效率,并可以从观察(LFO)设置中学习以前无法解决的任务。
translated by 谷歌翻译
While 3D GANs have recently demonstrated the high-quality synthesis of multi-view consistent images and 3D shapes, they are mainly restricted to photo-realistic human portraits. This paper aims to extend 3D GANs to a different, but meaningful visual form: artistic portrait drawings. However, extending existing 3D GANs to drawings is challenging due to the inevitable geometric ambiguity present in drawings. To tackle this, we present Dr.3D, a novel adaptation approach that adapts an existing 3D GAN to artistic drawings. Dr.3D is equipped with three novel components to handle the geometric ambiguity: a deformation-aware 3D synthesis network, an alternating adaptation of pose estimation and image synthesis, and geometric priors. Experiments show that our approach can successfully adapt 3D GANs to drawings and enable multi-view consistent semantic editing of drawings.
translated by 谷歌翻译
隐式神经表示形式将图像表示为连续函数而不是离散的网格形式,被广泛用于图像处理。尽管其表现优于效果,但仍存在恢复给定信号的清晰形状(例如图像边缘)的局限性。在本文中,我们提出了梯度幅度调节算法,该算法计算了训练隐式表示的图像的梯度。此外,我们提出了面向边缘的表示网络(EOREN),该网络可以通过拟合梯度信息(面向边缘的模块)来重建图像。此外,我们添加了通道调节模块以调整给定信号的分布,从而解决了拟合梯度的慢性问题。通过分离两个模块的反向传播路径,Eoren可以学习图像的真实颜色,而不会阻碍梯度的作用。我们定性地表明,我们的模型可以重建复杂的信号,并通过定量结果证明我们的模型的一般重建能力。
translated by 谷歌翻译
基于参考的图像超分辨率(REFSR)旨在利用辅助参考(REF)图像为超溶解的低分辨率(LR)图像。最近,RefSR引起了极大的关注,因为它提供了超越单图SR的替代方法。但是,解决REFSR问题有两个关键的挑战:(i)当它们显着不同时,很难匹配LR和Ref图像之间的对应关系; (ii)如何将相关纹理从参考图像转移以补偿LR图像的细节非常具有挑战性。为了解决RefSR的这些问题,本文提出了一个可变形的注意变压器,即DATSR,具有多个尺度,每个尺度由纹理特征编码器(TFE)模块组成,基于参考的可变形注意(RDA)模块和残差功能聚合(RFA)模块。具体而言,TFE首先提取图像转换(例如,亮度)不敏感的LR和REF图像,RDA可以利用多个相关纹理来补偿更多的LR功能信息,而RFA最终汇总了LR功能和相关纹理,以获得更愉快的宜人的质地结果。广泛的实验表明,我们的DATSR在定量和质量上实现了基准数据集上的最新性能。
translated by 谷歌翻译
大规模的语音自我监督学习(SSL)已经出现到语音处理的主要领域,但是,由于其巨大规模而引起的计算成本问题是对学术界的高障碍。此外,语音SSL模型的现有蒸馏技术通过减少层来压缩模型,从而在语言模式识别任务(例如音素识别(PR))中引起性能降解。在本文中,我们提出了Fithubert,它几乎在几乎所有模型组件中都使尺寸较薄,并且与先前的语音SSL蒸馏作品相比,层层更深。此外,我们采用缩短时间来加快推理时间,并提出一种基于提示的蒸馏方法,以减少性能降解。与休伯特相比,我们的方法将模型降低到23.8%,推理时间为35.9%。此外,我们在优越的基准上达到了12.1%的单词错误率和13.3%的音素错误率,这比先前的工作优越。
translated by 谷歌翻译
即使生成的对抗网络(GAN)表现出出色的产生高质量图像的能力,但甘恩并不总是保证产生的影像图。有时,它们会生成具有缺陷或不自然物体的图像,这些图像称为“伪像”。研究要研究为什么这些伪像的出现以及如何被检测和去除它们的研究尚未得到充分进行。为了分析这一点,我们首先假设很少激活的神经元和经常激活的神经元具有不同的目的和责任,以实现生成图像的进展。在这项研究中,通过分析这些神经元的统计数据和作用,我们从经验上表明,很少激活的神经元与制造多种物体和诱导伪影的失败结果有关。此外,我们建议一种称为“顺序消融”的校正方法,以修复生成的图像的有缺陷部分,而无需高度的计算成本和手动努力。
translated by 谷歌翻译
GPT-3显示了培训的大规模语言模型(LMS)的卓越情调学习能力,培训数十亿规模数据。在这里,我们解决了GPT-3纸张报告的一些剩余问题,例如非英语LM,不同大小模型的性能,以及最近引入的迅速优化对上下文学习的效果。为实现这一目标,我们介绍了HyperClova,一个韩国VPT-3的韩国变体训练在一个以韩国为中心的560b标准的令牌。通过我们的韩国特定标记化,HyperClova与我们的培训配置增强,显示了韩国各种下游任务的最先进的上下游零射击和几秒钟学习表演。此外,我们展示了基于及时的学习的性能优势,并演示如何集成到迅速的工程管道中。然后,我们讨论了通过引入Hyperclova Studio,互动提示工程界面向ML的非专家提供AI原型设计能力来实现No Code AI范例的可能性。最后,我们展示了我们具有三个成功的内部应用程序的方法的潜力。
translated by 谷歌翻译